Для работы отдела маркетинга требуется мониторинг источников трафика, чтобы эффективно вкладывать деньги в рекламу. Основными метриками для этого является roas, revenue и количество денег, потраченных на рекламу. Последние две необходимы для понимания объема.

Данные о затратах поступают в хранилище данных (DWH) напрямую из рекламной системы, данные о выручке собираются на нашей стороне в виде событий покупки, а также внутри рекламной и биллинг систем.

Данные по нескольким источникам могут не сходится, поэтому при построении отчета необходимо иметь возможность регулировать некоторые параметры, от которых эти расхождения могут зависеть. Например, временная зона при агрегации по дате.

image.png

Задание

(здесь есть ссылки, для перехода к ответам, но чтобы убедиться в правильности предобработки данных советую просмотреть ноутбук полностью, я старался делать комментарии для описания своих мыслей и логики действий)

Необходимо сделать представление / view / витрину, по которой в дальнейшем будет строится отчеты с данными следующего вида:

Загрузим источники данных и дадим им краткое описание

Рекламная система file: ad_sys.csv

Биллинг система file: billing_sys.csv

Внутренняя система событий по покупкам file: internal_events.csv

Для соединения df_internal_events и df_billing_sys

Предобработка df_ad_sys

Создадим ввод параметра по диапозону дат

revenue_traffic_source- выручка по данным рекламной системы

Предобработка df_billing_sys

Сделаем график по таблице df_billing_sys

revenue_billing_system- выручка по данным системы биллинга

Revenue из Рекламной системы в разрезе источников трафика

Предобработка df_internal_events

Тут как-то NaN в источнике трафика (9999 nanaм присвоили раннее), а потом тот же пользователь опять делает ту же покупку позже, уже с источником трафика, видимо nan(9999) значит, что человек сам нашел ресурс и источника трафика не боло (SEO)

image.png

revenue_pixel- выручка по данным внутренней системы событий

spent_traffic_source- данные по затратам на рекламу

На графике ниже, мы видим что доходы с рекламы меньше, чем расходы на нее. Это не очень хорошо, давайте посчитаем ROAS, чтобы сделать наше предположение более явным